什么是单粒子翻转(SEU)?如何减缓其对飞机安全的影响? 您所在的位置:网站首页 DDR 存储器中的纠错码 什么是单粒子翻转(SEU)?如何减缓其对飞机安全的影响?

什么是单粒子翻转(SEU)?如何减缓其对飞机安全的影响?

2024-05-08 10:49| 来源: 网络整理| 查看: 265

现代民机飞控、航电等系统高度复杂,其大量采用了基于 RAM 的复杂电子设备。例如微处理器,现场可编程门阵列 FPGA(Field Programmable Gate Array)等。

这些设备中包含 SEU 敏感部件,一旦受到 SEU 效应影响,则可能导致程序执行序列紊乱、计算结果错误、工作异常、甚至是系统的崩溃。

因此为保证他们所执行功能的可用性和完整性,应考虑额外的检查和/或设计特征,并对 SEU 效应的安全性影响进行分析。

这里分析了复杂电子设备经常用到的芯片类型,包括专用集成电路器件 ASIC (Application Specific Integrated Circuit)、反熔丝 FPGA、SRAM 型 FPGA、Flash 型 FPGA。并总结了三模冗余、纠错码、擦洗、系统监控这四种常见的 SEU 减缓技术。

03 航空应用中的芯片选择

目前在民机机载设备的研制过程中,得到了广泛应用的芯片主要包括专用集成电路器件 ASIC 和 FPGA。

ASIC 芯片能够实现高密度、小体积和低功耗,但 ASIC 制片成本和风险较高,欠缺灵活性。

ASIC 一旦制造完成,如果需求发生更改需要较长更改周期和巨额重制费用,因此 ASIC 适用于不需要过多特殊定制、能够大规模量产应用的场合,且要求设计需求 “一次正确”。

ASIC 虽然也对 SEU 敏感,但相对来说具有较好的抗 SEU 性能。

随着电子工业的飞速发展,FPGA 由于兼顾高性能及灵活性,在数字系统设计及 ASIC 原型前端设计中得到广泛的应用。

FPGA 的主流技术有基于反熔丝、基于 SRAM 和基于 Flash 三种。

下图给出了 ASIC、反熔丝 FPGA、SRAM 型 FPGA、Flash 型 FPGA,这四种芯片的综合比较信息。

目前在民机机载设备上应用较多的是 ASIC、SRAM 型 FPGA、Flash 型 FPGA(根据使用场合不同,各有侧重)。

由于这些器件对 SEU 效应的敏感,因此在民机应用中需要针对 SEU 效应进行加固和减缓。

04 SEU 减缓技术

在民机系统和设备设计时,为将 SEU 带来的安全性影响减缓到最小,可针对 SEU 效应敏感的器件,采用三模冗余(Triple Module Redundancy, TMR)、纠错码(Error Correction Code, ECC)、擦洗(Scrubbing)和系统监控这几种常见的 SEU 减缓措施。

A 三模冗余 TMR

复杂电子硬件内部通过设置具有三模冗余的同步动态存储器,并对三路数据进行投票表决,可以防止随机故障的发生。

例如某飞机的计算机采用了三余度的 SDRAM,各自具有独立控制器,能够实现位对位表决和位故障修复,可以有效地预防和纠正单粒子翻转带来的影响。

其基于硬件的三模冗余原理示意,如下图所示。

图中,三个相同的存储器模块 M1、M2、M3 分别接收三个相同的输入,产生的三个结果送至数据表决器模块。

表决器模块的输出取决于三个输入的多数(多数表决原则)。若有一个模块发生 SEU 故障,则另两个正常模块的输出可将故障模块的输出投出去,确保表决器输出的正确性。

三模冗余技术的优点在于速度快,缺点是所需附加硬件资源多,从而造成功耗、质量及体积增大。

B 纠错码技术 ECC

纠错码是一种针对 SEU 常见的减缓方法,可使用特定的编码和解码规则,检测和纠正存储器中的故障。

纠错码的基本原理是在信息编码序列上附加冗余编码,然后进行存储和传输,这些冗余编码与信息编码之间存在某种确定的相互关联。接收方可以通过校验冗余编码与信息编码之间的关联,发现是否受到 SEU 影响,继而实现故障隔离或者利用编码算法将其纠正。

FPGA 的 ECC 编码目的,是为了在读取存储单元的内容时,能够发现差错并将其纠正。一般采用既能检错又能纠错的编码方法,如循环冗余校验 CRC、海明码(Hamming Code)等。

根据航空工业应用情况,采用这两种编码方案在确定码长的情况下,一般至少能够纠正一位错误。

典型的纠错码技术功能框图,如下图所示。

C 擦洗

机载电子设备上电时,通过配置电路将配置存储单元的内容写进 FPGA 中。当 FPGA 受到 SEU 效应影响时,相应存储单元将出现 “位翻转” 现象。

因此,通过周期性的擦洗,即刷新存储单元中的内容,可以缩小存储单元受到 SEU 影响而发生位翻转的暴露时间。

经验表明频繁地擦洗可以直接地提高存储器的抗 SEU 能力,且擦洗时间间隔减小,安全性水平有显著提高。擦洗无须冗余的附加硬件逻辑资源,仅需适当增加自适应的周期性刷新操作,增加了系统设计实现的复杂度。

擦洗技术仅适合片外 FPGA 配置存储单元的抗 SEU 设计,该方法本身并不能对存储内容是否受到 SEU 影响进行判断,因此数据并不一定可靠。

擦洗本质上不能解决由 SEU 效应带来的问题,仅提供了一定程度上的减缓。

D 系统监控

系统可以设置不同层级的监控器,对 SEU 影响进行监控,并及时对故障进行隔离。系统监控是一种被动的 SEU 减缓技术,其目的是隔离故障和重构系统,最小化故障带来的影响。

系统监控不仅仅只针对 SEU 影响,其作为提高飞机安全性的必要措施和实现故障检测的有效途径,在民机各系统设计中得到了广泛应用。

在设备层级,可以通过指令/监控架构,对指令和数据进行位对位比较,一旦发现不匹配,启动相应的故障响应措施,并给飞机中央维护系统报故障信息,着陆后进行维护操作。

在系统层级,机载系统核心计算机通过采集传感器和其他设备工作数据,进行回绕监控、总线数据健康监控等,发现故障后切换至冗余通道,对系统进行重构。

05 总结

OK,本文针对 SEU 效应,分析了机载系统经常使用到的芯片类型及优缺点,并总结了适用的 SEU 减缓技术,可指导民机机载系统设计和硬件芯片的选用权衡。

相关文章,点击阅读:返回搜狐,查看更多

循环冗余校验CRC是什么?它如何提高民机信号传输的完整性? 民用飞机飞控系统,如何对传感器信号进行投票表决? 飞机和系统安全性中的“可用性”和“完整性”是什么意思?


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有